基於組合特徵的漢語名詞詞義消歧 (A Study on Noun Sense Disambiguation Based on Syntagmatic Features)

نویسنده

  • Hui Wang
چکیده

Word sense disambiguation (WSD) plays an important role in many areas of natural language processing, such as machine translation, information retrieval, sentence analysis, and speech recognition. Research on WSD has great theoretical and practical significance. The main purposes of this study were to study the kind of knowledge that is useful for WSD, and to establish a new WSD model based on syntagmatic features, which can be used to disambiguate noun sense in Mandarin Chinese effectively. Close correlation has been found between lexical meaning and its distribution. According to a study in the field of cognitive science [Choueka, 1983], people often disambiguate word sense using only a few other words in a given context (frequently only one additional word). Thus, the relationships between one word and others can be effectively used to resolve ambiguity. Based on a descriptive study of more than 4,000 Chinese noun senses, a multi-level framework of syntagmatic analysis was designed to describe the syntactic and semantic constraints of Chinese nouns. All of these polyseme nouns were surveyed, and it was found that different senses have different and complementary distributions at the syntax and/or collocation levels. This served as a foundation for establishing an WSD model by using grammatical information and a thesaurus provided by linguists. 1 本研究得到中國 973 重點基礎研究項目“面向新聞領域的漢英機器翻譯系統"(G1998030507-4) 的支持。 * 北京大學計算語言學研究所,北京,100871 Email: [email protected] Insitute of Computational Linguistics, Peking University, Beijing 100871, P.R.China

برای دانلود رایگان متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Event Structure of Transitive Verb: A MARVS Perspective

Module-Attribute Representation of Verbal Semantics (MARVS) is a theory of the representation of verbal semantics that is based on Mandarin Chinese data (Huang et al. 2000). In the MARVS theory, there are two different types of modules: Event Structure Modules and Role Modules. There are also two sets of attributes: Event-Internal Attributes and Role-Internal Attributes, which are linked to the...

متن کامل

漢語動詞辭彙語義分析:表達模式與研究方法 (A Lexical-Semantic Analysis of Mandarin Chinese Verbs: Representation and Methodology)

在這篇文章中我們將簡單扼要地介紹詞庫小組分析動詞語意的作法,包含了理 論部分以及分析的方法和步驟。這套理論架構是從實際分析的過程中逐漸形成 的,但尚未完全成熟。截至目前為止,我們已經分析了四十多組近義動詞和近 十組動詞語意場,並初步架構了一套由語意屬性組成的動詞語意表達模式。這 套理論和分析方法是建立在詞庫小組十幾年的研究基礎上,結合了眾人的力量 逐步完成的。 本文嘗試統合眾人的研究所得,設法銜接理論與語言事實,並詳細介紹我 們的研究方法。關於理論部分,詞庫小組已發表了許多篇論文。早期架構請參 考 Tsai 等人[1998]、Huang 等人[1998],最近的架構請參考 Huang 等人[見本期 刊]。這些論文側重理論架構在學理上的探討,對語言事實涉及較少。本文則 採用較多的語料,設法將理論落實。此外,詞庫小組也發表多篇論文探討了幾 個特定近義詞組或語意場,像是 Chang 等人[...

متن کامل

語料庫導向之方位短句於固定框架的共現概念統計分析 (A Corpus-driven Pattern Analysis in Locative Phrases: A Statistical Comparison of Co-appearing Concepts in Fixed Frames) [In Chinese]

中文的方位詞組主要可以前飾詞(以、之)與後綴詞(邊、面、頭),結合明確的方向指引 (如:前後、上下、左右、裡外等)組合而成。這樣的組成在實際使用上,卻會有避免使 用或不存在的組合邏輯,同時這樣的現象亦發生在方位短語構成上。本研究試使用計算 統計方法,分析在 Sketch Engine 中取得的方位名詞組的概念合成模式。在詞彙概念方 面,我們使用具知識層級架構的中文同義詞詞林[1]進行將詞彙的概念探索,並計算方 位短句裡所包含的知識概念組成模式,最後試從統計方法上尋得詮釋概念與方位詞組組 合模式的實證資訊。在本研究之中,我們使用了資訊度量方法中的互斥資訊(Point-wise Mutual Information, PMI)進行統計分析兩個詞組概念間的相關性,並使用多變數互斥資 訊 (Multivariate Mutual Information, MMI)[2]進行三個概念間的相關分...

متن کامل

Automatic labeling of troponymy for Chinese verbs

以同義詞集與詞彙語意關係架構而成的詞彙知識庫,如英語詞網 (Wordnet)、歐語詞 網 (EuroWordnet)等,已有充分的研究,詞網的建構也已相當完善。基於相同的目的,中 研院語言所亦已建立大規模之中文詞彙網路 (Chinese Wordnet,CWN),旨在提供完整的 中文辭彙之詞義區分。然而,在目前之中文詞彙網路系統中,由於目前主要是採用人為判 定來標記同義詞集之間的語意關係,因此這些標記之數量尚未達成可行應用之一定規模。 因此,本篇文章特別針對動詞之間的上下位詞彙語意關係 (Troponymy),提出一種自動標 記的方法。我們希望藉由句法上特定的句型 (lexical syntactic pattern),建立一個能夠自 動抽取出動詞上下位的系統。透過詞義意判定原則的評估,結果顯示,此系統自動抽取出 的動詞上位詞,正確率將近百分之七十。本研究盼能將本方法應用於正在發展中...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

عنوان ژورنال:
  • IJCLCLP

دوره 7  شماره 

صفحات  -

تاریخ انتشار 2002